智能论文笔记

MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity Recognition

Shervin Malmasi , Anjie Fang , Besnik Fetahu , Sudipta Kar , Oleg Rokhlenko

分类：自然语言处理

2022-08-30

我们提出了多语言数据集的Multiconer，用于命名实体识别，涵盖11种语言的3个域（Wiki句子，问题和搜索查询），以及多语言和代码混合子集。该数据集旨在代表NER中的当代挑战，包括低文字方案（简短和未添加的文本），句法复杂的实体（例如电影标题）和长尾实体分布。使用基于启发式的句子采样，模板提取和插槽以及机器翻译等技术，从公共资源中汇编了26M令牌数据集。我们在数据集上应用了两个NER模型：一个基线XLM-Roberta模型和一个最先进的Gemnet模型，该模型利用了Gazetteers。基线实现了中等的性能（Macro-F1 = 54％），突出了我们数据的难度。 Gemnet使用Gazetteers，显着改善（Macro-F1 =+30％的平均改善）。甚至对于大型预训练的语言模型，多功能人也会构成挑战，我们认为它可以帮助进一步研究建立强大的NER系统。 Multiconer可在https://registry.opendata.aws/multiconer/上公开获取，我们希望该资源将有助于推进NER各个方面的研究。

translated by 谷歌翻译